在这项研究中,我们使用一个自我解释的神经网络(SENN),该神经网络学习了无监督的概念,以获取人们易于自动理解的概念。在概念学习中,隐藏的层保留了与输出相关的可口理功能,这在适应需要解释的现实环境时至关重要。但是,众所周知,在一般环境中,诸如自主驾驶场景等一般环境中,Senn输出的概念的解释性降低。因此,这项研究将对比度学习与概念学习结合在一起,以提高概念的可读性和任务的准确性。我们称此模型对比度自我解释神经网络(C-SENN)。
translated by 谷歌翻译
道路车辙是严重的道路障碍,可能导致早期和昂贵的维护成本的道路过早失败。在过去的几年中,正在积极进行使用图像处理技术和深度学习的道路损害检测研究。但是,这些研究主要集中在检测裂缝,坑洼及其变体上。很少有关于探测道路的研究。本文提出了一个新颖的道路车辙数据集,其中包括949张图像,并提供对象级别和像素级注释。部署了对象检测模型和语义分割模型,以检测所提出的数据集上的道路插道,并对模型预测进行了定量和定性分析,以评估模型性能并确定使用拟议方法检测道路插道时面临的挑战。对象检测模型Yolox-S实现了61.6%的Map@iou = 0.5,语义分割模型PSPNET(RESNET-50)达到54.69,精度为72.67,从而为将来的类似工作提供了基准的准确性。拟议的道路车辙数据集和我们的研究结果将有助于加速使用深度学习发现道路车辙的研究。
translated by 谷歌翻译
数据文章介绍了路线损坏数据集RDD2022,其中包括来自六个国家,日本,印度,捷克共和国,挪威,美国和中国的47,420条道路图像。图像已注释了超过55,000个道路损坏的实例。数据集中捕获了四种类型的道路损坏,即纵向裂缝,横向裂纹,鳄鱼裂纹和坑洼。设想注释的数据集用于开发基于深度学习的方法以自动检测和对道路损害进行分类。该数据集已作为基于人群传感的道路伤害检测挑战(CRDDC2022)的一部分发布。 CRDDC2022挑战邀请了来自全球的研究人员提出解决方案,以在多个国家 /地区自动道路损害检测。市政当局和道路机构可以使用RDD2022数据集,并使用RDD2022培训的模型用于低成本自动监测道路状况。此外,计算机视觉和机器学习研究人员可能会使用数据集对其他类型的其他基于图像的应用程序(分类,对象检测等)进行不同算法的性能。
translated by 谷歌翻译
时间序列数据通常仅在观察过程中的中断时仅在有限的时间范围内获得。为了对这样的部分时间序列进行分类,我们需要考虑1)从2)不同时间戳绘制的可变长度数据。为了解决第一个问题,现有的卷积神经网络在卷积层之后使用全球池取消长度差异。这种体系结构遭受了将整个时间相关性纳入长数据和避免用于简短数据的功能崩溃之间的权衡。为了解决这种权衡,我们提出了自适应多尺度合并,该池从自适应数量的层中汇总了功能,即仅用于简短数据的前几层和更多的长数据层。此外,为了解决第二个问题,我们引入了时间编码,将观察时间戳嵌入中间特征中。我们的私有数据集和UCR/UEA时间序列档案中的实验表明,我们的模块提高了分类精度,尤其是在部分时间序列获得的短数据上。
translated by 谷歌翻译
最近的文本到语音(TTS)的质量与人类的质量相当。但是,其在口语对话中的应用尚未得到广泛研究。这项研究旨在实现与人类对话非常相似的TT。首先,我们记录并抄录实际自发对话。然后,提出的对话TTS分为两个阶段:第一阶段,各种自动编码器(VAE) - VITS或高斯混合物变化自动编码器(GMVAE) - 培训了训练,从端到端文本对语音(VIT),最近提出的端到端TTS模型。从语音中提取潜在的口语表示的样式编码器与TTS共同培训。在第二阶段,对风格预测指标进行了训练,以预测从对话历史中综合的说话风格。在推断期间,通过将样式预测器预测的语言样式表示为VAE/gmvae-vits,可以以适合对话背景的样式合成语音。主观评估结果表明,所提出的方法在对话级别的自然性方面优于原始VIT。
translated by 谷歌翻译
贝叶斯优化有效地优化了黑盒问题中的参数。但是,在有限的试验中,该方法对于高维参数不起作用。可以通过非线性将其嵌入低维空间来有效地探索参数。但是,不能考虑约束。我们提出了将参数分解组合到非线性嵌入中,以考虑在高维贝叶斯优化中考虑已知的平等和未知不平等约束。我们将提出的方法应用于粉末称重任务,作为使用情况。根据实验结果,与手动参数调整相比,提出的方法考虑了约束,并将试验数量减少约66%。
translated by 谷歌翻译
提供有关学习者论证的反馈对于发展批判性思维技能至关重要,但是,它需要大量的时间和精力。为了减轻教师的过载,我们旨在自动化提供反馈的过程,尤其是给出诊断评论,以指出论点固有的弱点。建议给出特定的诊断评论,以便学习者可以识别诊断而不会误解。但是,如何制定提供特定的诊断评论的任务并不明显。我们将任务的表述作为模板选择和插槽填充,以使自动评估变得更加容易,并且模型的行为更加可行。该公式的关键是创建足以实用的模板集的可能性。在本文中,我们定义了三个标准,即模板集应满足:表达性,信息性和唯一性,并验证创建一个满足这些标准作为第一个试验的模板集的可行性。我们将通过一项注释研究证明,将文本中给出的诊断评论转换为模板格式是可行的。注释研究中使用的语料库公开可用。
translated by 谷歌翻译
在自然灾害期间迫切需要的疏散避难所旨在尽量减少对人类幸存者的疏散负担。然而,灾难的规模越大,操作避难所的成本越高。当疏散物的数量减少时,通过将剩余的疏散物移动到其他避难所和尽可能快地关闭挡板来减小操作成本。另一方面,庇护所之间的搬迁对疏散者造成了巨大的情感负担。在这项研究中,我们制定了“疏散避难所调度问题”,它以避难所分配避难所,以尽量减少避难所的运动成本和避难所的运营成本。由于很难直接解决这一二次编程问题,因此我们将其转换为0-1整数编程问题。此外,这种配方努力计算从历史数据中重新安置它们的负担,因为实际没有付款。为了解决这个问题,我们提出了一种方法,该方法根据实际灾难期间基于撤离者和庇护所的数量估算运动成本。仿真实验与神户地震(Great Hanshin-Awaji地震)的记录表明,我们的建议方法将运营成本减少3370万美元:32%。
translated by 谷歌翻译
神经声码器(NVS)的发展导致了高质量和快速的波形。但是,常规的NV靶向单个采样率,并在应用于不同采样率时需要重新训练。由于语音质量和发电速度之间的权衡,合适的采样率因应用到应用而异。在这项研究中,我们提出了一种处理单个NV中多个采样率的方法,称为MSR-NV。通过从低采样率开始生成波形,MSR-NV可以有效地了解每个频段的特征,并以多个采样率合成高质量的语音。它可以被视为先前提出的NVS的扩展,在这项研究中,我们扩展了平行波甘(PWG)的结构。实验评估结果表明,所提出的方法比在16、24和48 kHz分别训练的原始PWG实现的主观质量明显更高,而没有增加推理时间。我们还表明,MSR-NV可以利用较低的采样率来利用语音来进一步提高合成语音的质量。
translated by 谷歌翻译
本文提出了一种具有多粒度潜变量的分层生成模型,以综合表达语音。近年来,将细粒度的潜在变量引入了文本到语音合成中,使得韵律和讲话方式的精细控制能够进行综合演讲。然而,当通过从标准高斯先前抽样获得这些潜变量时,言语的自然度降低。为了解决这个问题,我们提出了一种用于建模细粒度潜在变量的新框架,考虑到输入文本,分层语言结构和潜在变量的时间结构的依赖性。该框架包括多粒子变形AutoEncoder,条件先前和多级自回归潜伏转换器,以获得不同的时间分辨率潜变量,并通过拍摄来对较粗级别的潜入变量进行样本考虑到输入文本。实验结果表明,在合成阶段在没有参考信号的情况下采样细粒潜变量的适当方法。我们拟议的框架还提供了整个话语中说话风格的可控性。
translated by 谷歌翻译